"Tôi yêu cầu Operator, tác nhân AI mới của OpenAI, thực hiện một nhiệm vụ bất khả thi: tìm trứng giá rẻ ở khu phố tôi đang ở", Geoffrey A. Fowler, cây bút công nghệ kỳ cựu của Washington Post, chia sẻ cuối tháng trước. Trong vòng 10 phút, Operator tự động đặt mua một tá trứng, trả tiền qua thẻ tín dụng của Fowler và yêu cầu giao đến trước cửa nhà. "Không thể tin được, khoa học viễn tưởng đang trở thành hiện thực. AI làm mọi thứ, nhưng tôi không yêu cầu nó mua trứng", Fowler nói. "Nó đã 'làm loạn' theo đúng nghĩa, khi tự truy cập và ủy quyền cho thẻ tín dụng mua hàng mà không có sự đồng ý của tôi, với 'thiệt hại' 31,43 USD. Tôi hơi bối rối khi nhận ra việc AI tự quyết định thay con người đã khiến tôi mất tiền thật". Minh họa AI Agent tự mua sắm. Ảnh: Observer Design Ra mắt hồi tháng 1, Operator là một trong những Tác nhân AI đầu tiên dành cho người dùng cá nhân với khả năng làm việc độc lập. Thay vì đơn thuần trả lời câu hỏi hoặc tạo hình ảnh như chatbot thông thường, chúng tiến ra thế giới thực bằng cách thực hiện các nhiệm vụ thay con người như đặt mua hàng tạp hóa, gửi tin nhắn hoặc đặt chỗ máy bay, tàu xe. Trước đó, công ty Anthropic giới thiệu phiên bản Computer Use thông qua API vào tháng 10/2024. Hai tháng sau, Google cho biết mô hình Gemini 2.0 "được thiết kế cho thời đại tác nhân". Hãng cũng công bố Project Mariner, AI Agent có thể duyệt web và thực hiện các hành động như click vào nút bấm hay điền biểu mẫu. Tại Trung Quốc, một AI Agent có tên Manus đang gây sốt nhờ khả năng tự ra quyết định và được ví như "khoảnh khắc DeepSeek thứ hai". Forbes gọi Manus là "tác nhân AI hoàn toàn tự động đầu tiên trên thế giới", với khả năng suy nghĩ, lập kế hoạch và thực hiện các nhiệm vụ một cách độc lập như con người. Trong khi các ứng dụng như ChatGPT, Gemini cần dựa vào lời nhắc để thực hiện tuần tự công việc, Manus không chờ hướng dẫn, mà được thiết kế để tự khởi tạo các nhiệm vụ, đánh giá thông tin và điều chỉnh cách tiếp cận một cách năng động. Trở lại với Operator, OpenAI hiện cung cấp AI này dưới dạng "bản xem trước" thông qua gói cước ChatGPT Pro giá 200 USD, nhưng đang lên kế hoạch đưa lên các gói dịch vụ khác thời gian tới. Chỉ cần ra lệnh, Tác nhân AI này sẽ truy cập vào website, di chuyển con trỏ như một "bóng ma" và thực hiện tác vụ. Đôi khi, nó có thể ngừng lại để đợi lệnh, nhưng hầu hết các bước đều tự thực hiện. Người dùng có thể sẽ chỉ cần ngồi xem AI đang làm gì. Theo OpenAI, Operator tích hợp mô hình mới Computer-Using Agent (CUA). Kết hợp khả năng thị giác của GPT-4o và khả năng suy luận nâng cao thông qua học tăng cường, CUA được đào tạo để tương tác với giao diện người dùng đồ họa (GUI) thông qua phím bấm, menu và văn bản mà mọi người nhìn thấy trên màn hình. Nếu gặp thử thách hoặc lỗi, Operator có thể tận dụng khả năng suy luận của mình để tự sửa lỗi. Khi cần trợ giúp, nó sẽ thông báo "trao" lại quyền kiểm soát cho người dùng, giúp đảm bảo trải nghiệm mượt và mang tính cộng tác. Thay đổi tương tác trên Internet Cây bút Victoria Turk của Guardian đã thử khả năng của Operator bằng cách cho phép nó mua hàng tạp hóa và nhận thấy nó "tốt hơn nhiều so với mong đợi". Ban đầu, khi ra lệnh, AI của OpenAI sẽ hỏi về cửa hàng hoặc thương hiệu yêu thích. Khi được đề xuất chỉ cần cửa hàng rẻ nhất, AI sẽ tự tìm kiếm, truy cập webiste, lọc sản phẩm theo giá và thêm vào giỏ hàng. "Operator không làm tôi bối rối trước những câu hỏi, thay vào đó sẽ đề xuất dựa trên sở thích. Ngoài sản phẩm yêu cầu mua, nó còn đề xuất thêm các món khác để kết hợp giúp tạo ra nhiều món ăn hơn", Turk cho biết. Operator cũng đề nghị "cân nhắc can thiệp" khi nhập tài khoản thanh toán, dù nó có thể "chiếm quyền" để đăng nhập tài khoản đã lưu. OpenAI cho biết Operator làm điều này là để tôn trọng quyền riêng tư và các thông tin nhạy cảm. Turk sau đó cũng yêu cầu Operator mua thêm cá và khoai tây chiên, đặt lịch làm móng, nhưng để nó chạy nền vì bà bận làm việc khác. Các thao tác được AI của OpenAI thực hiện trong chốc lát, gồm cả các khoản thanh toán trước.